其他
用 Apache Pulsar SQL 查询数据流
这一需求促成了 Pulsar SQL 的开发。Apache Pulsar 2.2.0 中首次发布 Pulsar SQL 这一新框架,通过 Pulsar SQL,用户可以使用 SQL 接口高效查询存储在 Pulsar 中的数据流。
Pulsar 拥有将服务/计算与存储分离的创新型架构,用户因此可以轻松地独立扩展计算或存储资源,添加附加存储资源也更容易。
每个 ETL 步骤都要根据其运行的框架进行专门设计,例如:Sqoop 或 Flume 用于提取数据,Hive 和 Pig 脚本用于转换数据,Hive 或 Impala 进程加载数据到可查询表。
本质上看,简化数据管道的过程是面向批处理的,因此加载到数据湖的数据与传入的数据流不一致。批次之间的间隔越长,数据越不及时;相应地,基于数据的决策也就越不及时。
实时分析:Pulsar 在收到消息后立即可以查询,这一功能使得通过 SQL 查询来合并最新数据到实时数据仪表板,或监控最新数据成为可能。 Web 分析/移动端应用程序分析:Web 和移动端应用程序生成使用数据流和交互数据流,可以实时查询这些数据流以检测用户使用习惯、提升应用、优化体验等。 事件日志和分析:Pulsar 可以处理并存储用户应用程序中的事件日志或操作系统中的系统日志。然后,可以使用 Pulsar SQL 查询存储的日志,调试应用程序、搜索故障等。 事件回放:可以使用 SQL 查询按时间顺序提取事件。例如,短时间内识别欺诈性交易的峰值。可以捕获这些事件流,在改进欺诈检测算法时通过回放来模拟欺诈活动。
更多详细信息,参阅 Pulsar SQL 文档(复制下方链接或直接点击「阅读原文」)。
http://pulsar.apache.org/docs/en/sql-overview/